Phát hiện bất thường là gì? Các bài báo nghiên cứu khoa học

Phát hiện bất thường là quá trình xác định các điểm dữ liệu không tuân theo quy luật thông thường, thường báo hiệu lỗi, gian lận hoặc hành vi bất thường. Quá trình này sử dụng các phương pháp thống kê, học máy và học sâu để phân biệt điểm lệch trong dữ liệu có cấu trúc hoặc phi cấu trúc phức tạp.

Khái niệm phát hiện bất thường

Phát hiện bất thường (anomaly detection) là quá trình nhận diện các điểm dữ liệu hoặc hành vi không tuân theo mô hình thông thường hoặc dự đoán được của hệ thống. Đây là một lĩnh vực trọng yếu trong khoa học dữ liệu, đặc biệt trong các môi trường mà sự bất thường có thể báo hiệu lỗi hệ thống, hành vi gian lận hoặc rủi ro tiềm ẩn.

Các bất thường thường chiếm tỷ lệ rất nhỏ trong toàn bộ tập dữ liệu, nhưng lại mang giá trị cảnh báo cao. Việc phát hiện chính xác giúp ngăn chặn sự cố, nâng cao hiệu quả vận hành và giảm tổn thất. Mô hình phát hiện bất thường có thể hoạt động theo thời gian thực hoặc theo lô, tùy vào yêu cầu cụ thể của ứng dụng.

Các lĩnh vực ứng dụng phổ biến bao gồm:

Giám sát mạng và an ninh hệ thống
Phát hiện gian lận tài chính
Chẩn đoán y khoa và hình ảnh y học
Kiểm soát chất lượng công nghiệp
Phân tích hành vi người dùng

Phân loại bất thường

Bất thường trong dữ liệu có thể được phân thành nhiều loại tùy theo đặc điểm và ngữ cảnh. Việc phân loại này giúp xác định phương pháp tiếp cận phù hợp và cải thiện hiệu suất mô hình phát hiện.

Ba loại bất thường phổ biến nhất bao gồm:

Bất thường điểm (point anomaly): Là các điểm dữ liệu cá biệt, tách biệt đáng kể khỏi phân phối dữ liệu thông thường.
Bất thường ngữ cảnh (contextual anomaly): Là dữ liệu có thể bình thường trong một ngữ cảnh nhưng trở nên bất thường trong một hoàn cảnh khác, ví dụ như nhiệt độ cao bất thường vào mùa đông.
Bất thường tập hợp (collective anomaly): Là một chuỗi hoặc nhóm dữ liệu bất thường khi xét tổng thể, mặc dù từng phần tử có vẻ bình thường.

Bảng dưới đây minh họa sự khác nhau giữa các loại bất thường với ví dụ cụ thể:

Loại bất thường	Đặc điểm	Ví dụ
Point	Đơn lẻ, khác biệt hoàn toàn với phần còn lại	Giao dịch $50.000 trong tài khoản chỉ dùng $20/ngày
Contextual	Bình thường trong bối cảnh này, bất thường trong bối cảnh khác	25°C tại Bắc Âu vào tháng 12
Collective	Chuỗi dữ liệu bất thường khi xét cùng nhau	5 lượt đăng nhập sai liên tiếp trong 1 phút

Các ứng dụng thực tiễn của phát hiện bất thường

Phát hiện bất thường là một trong những giải pháp được triển khai rộng rãi nhất trong các hệ thống giám sát, vì khả năng phản ứng sớm với các mối đe dọa hoặc lỗi hệ thống. Trong tài chính, nó giúp ngăn chặn hành vi gian lận thẻ tín dụng hoặc giao dịch rửa tiền. Nền tảng như FICO đã áp dụng phát hiện bất thường từ dữ liệu giao dịch thời gian thực để phát hiện hành vi bất thường chỉ trong vòng mili giây.

Trong lĩnh vực an ninh mạng, công cụ như Splunk cho phép theo dõi hành vi bất thường trong nhật ký truy cập hệ thống, phát hiện sớm các hành vi truy cập trái phép, malware hoặc tấn công từ chối dịch vụ. Ở y học, mô hình phát hiện bất thường được dùng trong chẩn đoán hình ảnh như MRI hoặc CT để tìm khối u, dị tật, thường dùng trong các mô hình học sâu không giám sát. Tham khảo thêm nghiên cứu tại Nature.

Một số ứng dụng nổi bật khác gồm:

Giám sát cảm biến trong nhà máy để phát hiện lỗi máy móc
Phân tích hành vi người dùng trên nền tảng thương mại điện tử
Phát hiện gian lận bảo hiểm hoặc khai gian dữ liệu

Phương pháp phát hiện bất thường truyền thống

Các phương pháp truyền thống chủ yếu dựa trên kỹ thuật thống kê và phân tích dữ liệu cơ bản. Chúng hoạt động hiệu quả khi dữ liệu có cấu trúc rõ ràng và tuân theo phân phối xác định. Một số kỹ thuật phổ biến:

Z-score: Phát hiện giá trị ngoại lai bằng cách đo độ lệch chuẩn so với trung bình, tính bằng công thức: $z = \frac{x - \mu}{\sigma}$
Interquartile Range (IQR): Dựa trên khoảng tứ phân vị để loại trừ điểm nằm ngoài vùng [Q1 - 1.5*IQR, Q3 + 1.5*IQR]
Phân cụm: Phương pháp như k-means hoặc DBSCAN phát hiện điểm lẻ loi nằm ngoài cụm chính
Hồi quy tuyến tính: Ước lượng sai số dự đoán để phát hiện điểm lệch chuẩn

Mặc dù đơn giản và dễ triển khai, các phương pháp này có hạn chế lớn trong việc xử lý dữ liệu phi tuyến, không đồng nhất hoặc khối lượng lớn. Chúng cũng không hiệu quả khi dữ liệu có tính thời gian hoặc không có phân phối rõ ràng.

Vì vậy, trong thực tế, chúng thường được dùng làm bước đầu sàng lọc hoặc kết hợp với các mô hình học máy để nâng cao độ chính xác.

Phát hiện bất thường bằng học máy

Học máy (machine learning) cho phép mô hình hóa các đặc trưng phức tạp trong dữ liệu, từ đó nâng cao hiệu quả phát hiện bất thường trong môi trường thực tế. Các thuật toán học máy cung cấp khả năng mở rộng tốt, xử lý dữ liệu phi tuyến và hỗ trợ mô hình hóa trên tập dữ liệu lớn hoặc không có phân phối rõ ràng.

Dựa trên cách sử dụng dữ liệu nhãn, các phương pháp học máy được chia thành ba nhóm chính:

Học có giám sát: Dữ liệu đã được gán nhãn là bất thường hoặc bình thường. Các mô hình như Random Forest, SVM, hoặc XGBoost được huấn luyện để phân biệt hai lớp.
Học bán giám sát: Chỉ có dữ liệu bình thường trong tập huấn luyện. Mục tiêu là học mô hình của dữ liệu "chuẩn" rồi phát hiện điểm lệch trong quá trình dự đoán. Phổ biến nhất là One-Class SVM hoặc autoencoder.
Học không giám sát: Không cần nhãn dữ liệu. Mô hình cố gắng tìm các điểm có mật độ thấp hoặc khác biệt lớn so với cấu trúc chung, như Isolation Forest hoặc Local Outlier Factor (LOF).

Việc lựa chọn phương pháp phụ thuộc vào khả năng thu thập nhãn, độ mất cân bằng dữ liệu và tính chất của bài toán. Trong nhiều trường hợp, học bán giám sát là chiến lược khả thi nhất vì dữ liệu bất thường thường khan hiếm hoặc khó xác định chính xác.

Phát hiện bất thường trong học sâu

Học sâu (deep learning) mở rộng phạm vi ứng dụng của phát hiện bất thường sang các dạng dữ liệu phi cấu trúc như hình ảnh, video, âm thanh và văn bản. Các mô hình học sâu có thể tự học đặc trưng từ dữ liệu mà không cần thiết kế thủ công đặc trưng đầu vào, đồng thời phát hiện các mối quan hệ phi tuyến phức tạp.

Các kiến trúc học sâu thường dùng gồm:

Autoencoder: Một mạng nơron học để mã hóa và giải mã dữ liệu. Sai số tái tạo giữa đầu vào và đầu ra được dùng làm chỉ số bất thường. Nếu sai số cao hơn ngưỡng, điểm đó được coi là bất thường.
Variational Autoencoder (VAE): Một biến thể xác suất của autoencoder, học phân phối dữ liệu và tính xác suất xuất hiện của một điểm dữ liệu.
GAN (Generative Adversarial Network): Gồm generator tạo dữ liệu giả và discriminator phân biệt dữ liệu thật – bất thường được xác định qua điểm phân biệt yếu.
LSTM (Long Short-Term Memory): Mạng nơron hồi tiếp xử lý chuỗi thời gian, giúp phát hiện bất thường theo ngữ cảnh tạm thời như cảm biến công nghiệp hoặc log hệ thống.

Một ví dụ trong y học: mô hình autoencoder huấn luyện trên hình ảnh MRI bình thường, sau đó áp dụng lên hình ảnh mới. Các vùng tổn thương (u, hoại tử) tạo ra sai số tái tạo cao và được phát hiện là bất thường.

Chỉ số đánh giá hiệu quả phát hiện bất thường

Đánh giá mô hình phát hiện bất thường là thách thức do sự mất cân bằng dữ liệu nghiêm trọng – bất thường chiếm tỷ lệ rất nhỏ. Do đó, không thể chỉ dựa vào độ chính xác tổng thể. Cần dùng các chỉ số phản ánh đúng bản chất bài toán.

Các chỉ số chính gồm:

Precision: Tỷ lệ phát hiện đúng trên tổng số điểm được xác định là bất thường
Recall: Tỷ lệ bất thường thực sự được phát hiện
F1-score: Trung bình điều hòa của Precision và Recall, cân bằng giữa phát hiện đúng và đủ
ROC-AUC: Đánh giá khả năng phân biệt giữa hai lớp ở các ngưỡng khác nhau
PR-AUC: Hiệu quả hơn ROC-AUC trong trường hợp dữ liệu bất thường cực kỳ ít

Với các mô hình dựa trên sai số, có thể đánh giá bằng biểu đồ histogram sai số và chọn ngưỡng tối ưu để tách biệt bất thường. Ngoài ra, có thể dùng các chỉ số như tỷ lệ điểm có z-score vượt quá ngưỡng: $z = \frac{x - \mu}{\sigma}$ để định lượng độ lệch của một điểm so với trung bình.

Thách thức trong phát hiện bất thường

Dù đạt được nhiều tiến bộ, phát hiện bất thường vẫn đối mặt với nhiều thách thức. Các vấn đề phổ biến gồm:

Dữ liệu mất cân bằng: Bất thường rất ít, dễ bị mô hình bỏ qua
Thiếu nhãn: Việc gán nhãn bất thường thường tốn công và không rõ ràng
Độ trễ và tính thời gian: Phát hiện trễ làm giảm hiệu quả ứng phó
Khả năng diễn giải: Mô hình học sâu thường bị xem là "hộp đen", khó lý giải quyết định

Trong hệ thống thực tế, việc tích hợp mô hình cần chú trọng đến chi phí tính toán, khả năng mở rộng và độ tin cậy trong điều kiện thay đổi dữ liệu liên tục. Một số hướng khắc phục đang được nghiên cứu gồm: mô hình lai (hybrid model), học tăng cường liên tục (continual learning) và kết hợp tri thức miền (domain knowledge).

Xu hướng nghiên cứu hiện đại

Phát hiện bất thường đang dần mở rộng ra các môi trường dữ liệu phức tạp hơn. Một số xu hướng nổi bật gồm:

Few-shot learning: Học từ một số mẫu bất thường rất nhỏ, đặc biệt hữu ích trong các ngành như y học hoặc điều tra tội phạm mạng
Explainable AI (XAI): Tăng khả năng lý giải của mô hình bằng cách xác định lý do điểm đó bị đánh giá là bất thường
Tích hợp dữ liệu thời gian thực: Xử lý dữ liệu truyền phát (streaming), áp dụng trong IoT và hệ thống cảm biến
Transfer learning: Chuyển mô hình từ hệ thống đã học sang hệ thống mới có dữ liệu tương tự

Tham khảo nghiên cứu cập nhật tại arXiv:2202.11172, trong đó tổng hợp các phương pháp hiện đại nhất về phát hiện bất thường không giám sát và bán giám sát.

Kết luận

Phát hiện bất thường là một công cụ phân tích thiết yếu trong nhiều ngành công nghiệp và khoa học, cho phép xác định sớm các mối nguy và điểm dị biệt có ý nghĩa. Sự kết hợp giữa học máy, học sâu và AI diễn giải đang tạo điều kiện để xây dựng các hệ thống phát hiện thông minh, hiệu quả và đáng tin cậy hơn.

Với đà phát triển công nghệ, các giải pháp phát hiện bất thường trong tương lai sẽ ngày càng tự động hóa, linh hoạt và thích ứng tốt với các môi trường dữ liệu động và đa chiều.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề phát hiện bất thường:

Chức năng bất thường của tế bào nội mạc và sinh lý bệnh học của bệnh xơ vữa động mạch Dịch bởi AI

Circulation Research - Tập 118 Số 4 - Trang 620-636 - 2016

#chức năng tế bào nội mạc #bệnh xơ vữa động mạch #sinh lý bệnh học #nguy cơ lâm sàng #phát hiện sớm

Một hệ thống lai hiệu quả cho việc phát hiện bất thường trong mạng xã hội Dịch bởi AI

Cybersecurity - Tập 4 Số 1 - 2021

Một phương pháp mới để cải thiện hiệu suất tường lửa ứng dụng web dựa trên phương pháp vector hỗ trợ và phân tích yêu cầu Http Dịch bởi AI

Hội thảo nghiên cứu ứng dụng Mật mã và An toàn thông tin - - 2022

#tiêm SQL #XSS #kiểm tra đường dẫn #DDOS #CSRF #phương pháp dựa trên mẫu dấu hiệu #phương pháp phát hiện bất thường #phương pháp học máy #truy vấn HTTP

Ứng dụng kỹ thuật BoBs để phát hiện một số bất thường nhiễm sắc thể trong chẩn đoán trước sinh

Tạp chí Phụ Sản - Tập 16 Số 3 - Trang 36-41 - 2019

#BoBs; karyotype; chẩn đoán trước sinh

Các phương pháp phát hiện bất thường cho dữ liệu chứa nhiễu

Tạp chí Nghiên cứu Khoa học và Công nghệ quân sự - Số 79 - Trang 41-51 - 2022

#Anomaly detection; Latent representation; One-class classification; Contamination.

Ứng dụng kỹ thuật BoBs để phát hiện một số hội chứng mất đoạn nhỏ và lệch bội nhiễm sắc thể thai trong chẩn đoán thai nhi có siêu âm bất thường hệ tim mạch

Tạp chí Phụ Sản - Tập 16 Số 1 - Trang 37 – 41 - 2018

#BoBs #Bacs-on-Beads #mất đoạn nhỏ #nhiễm sắc thể.

Các phương pháp phát hiện bất thường cho dữ liệu chứa nhiễu

Tạp chí Nghiên cứu Khoa học và Công nghệ quân sự - Số 79 - Trang 41-51 - 2022

#Anomaly detection; Latent representation; One-class classification; Contamination.

MỨC ĐỘ ĐỒNG THUẬN CỦA CỘNG HƯỞNG TỪ VÀ SIÊU ÂM TRONG VIỆC PHÁT HIỆN MỘT SỐ BẤT THƯỜNG SỌ NÃO CỦA THAI NHI

Tạp chí Y học Việt Nam - Tập 520 Số 1A - 2022

#cộng hưởng từ #chẩn đoán trước sinh #bất thường sọ não thai nhi

PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG ĐỂ CẢNH BÁO TẤN CÔNG MẠNG

Phương pháp học biểu diễn ẩn với số lượng nhãn hữu hạn cho phát hiện bất thường mạng IoT

Tạp chí Khoa học - Công nghệ trong lĩnh vực An toàn thông tin - - Trang 14-22 - 2025

#AutoEncoder #semi-supervised #latent representation #IoT #malware detection

Tổng số: 47

Chủ đề khác

#bức xạ đồng bộ

Bức xạ đồng bộ là gì? Các bài nghiên cứu khoa học liên quan

#khủng hoảng kinh tế

Khủng hoảng kinh tế là gì? Các bài báo nghiên cứu khoa học

#kim loại

Kim loại là gì? Các công bố khoa học về Kim loại

#thép carbon

Thép carbon là gì? Các nghiên cứu khoa học về Thép carbon

#phân tích cấu trúc

Phân tích cấu trúc là gì? Các nghiên cứu khoa học liên quan

#autocad

Autocad là gì? Các công bố khoa học về Autocad

#thí nghiệm thực địa

Thí nghiệm thực địa là gì? Các bài báo nghiên cứu khoa học

#mô phỏng monte carlo

Mô phỏng monte carlo là gì? Nghiên cứu khoa học liên quan

#chuẩn

Chuẩn là gì? Các công bố khoa học về Chuẩn

#số prandtl

Số prandtl là gì? Các nghiên cứu khoa học về Số prandtl

Xem thêm

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích ảnh hưởng của các bài báo, công bố khoa học Việt Nam và Quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ SciBase

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Hệ thống hội thảo khoa học Việt Nam

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA

Thông tin liên hệ & hỗ trợ